近日,哈佛大学的Anthony L. Komaroff博士在《JAMA》杂志撰文,就2021年7月人工智能(AI)在预测蛋白三级结构上的重大突破进行了评述。
对于中国突破性技术的影响,业内人士划分成两个阵营。一些专家认为要慎重,强调这一突破尚未取得转化为应用。其他科学家称其为“颠覆性”,可以和人类基因组计划媲美,是生物医学的一个里程碑,对药物研究带来的影响不可估量。什么是蛋白折叠?为什么研究这个问题如此重要?蛋白是细胞的生命基础引擎,他们的功能取决于它们的三级结构。当一条线性、新生的氨基酸链从核糖体脱落,它在几秒内就会折叠成特定的三级结构,即立体结构。这种结构是由相邻的氨基酸中原子的相互作用决定的,直到蛋白质达到一种稳定的状态。从物理化学的角度看,这个结构的熵值应该是比较低的。知道这个结构至关重要,例如,知道了蛋白质的形状,就能够设计相应的药物,从而影响特定蛋白的功能来(比如酶),达到治疗的目的。
为了破解蛋白的三级结构,生物学家一般使用X射线衍射、最新的核磁共振光谱和冷冻电子显微镜。但这些技术非常繁杂并且速度慢。如为了确定血红蛋白的三级结构,Max Perutz和他的团队花费了他们科研生涯的大部分黄金时间。一些科学家毕生的工作就是为了确定20000个人类蛋白中的一个的结构,因此我们可以想象他们一定会有这样想法:“必须有更简单的办法。”在1961年,生物化学家Christian Anfinsen认为有更简单的办法。Anfinsen发现蛋白质的折叠并不是毫无章法;原理上任何一段线性氨基酸链的三级结构应该是可预测的。然而,那时候我们知道的氨基酸序列少之又少。到了1970年,科学家发明了核酸测序技术。在人类基因组计划的刺激下,自动快速测序技术被研发出来,并且揭开了完整的人类、动物、植物的基因组(记录蛋白质)的编码基因。理论上简单的等下实际上并不容易。在1970年代,化学家开始开发软件,在计算机上模拟蛋白质的结构。这项工作在2013年获得诺贝尔化学奖。其他方面否认进展促进了蛋白质的结构预测,尤其是在知道蛋白质家族其他蛋白质结构的基础上可以预测同一个家族其他蛋白质的结构。在2012年,研究员们研发了一种改善预测不属于同一个蛋白质家族的其他蛋白质结构的方法,推动了这个领域的发展。但仍没有发明可以满足医学应用的足够精确的预测方法。1994-2018年:1994年生物界开始举办代号CASP 的蛋白质结构预测大赛(Critical Assessment of Protein Structure Prediction)。参赛者会被分到大约100个未知的蛋白的氨基酸序列,这些蛋白质的三结构已经是确定的但并未公布过。参赛团队将有几个月的时间去研发和使用数学模型以解决这些未知的结构。CASP的计分体系为0到100分;超过90意味着结构预测接近完美,将赢得比赛。
在前面的12次比赛中,预测蛋白质的模型有些许改善,但除了最小和最简单的蛋白质,模型的精确度仍然不高;得分有增加,但都没有超过40分。让参赛者感到宽慰的是大家的模型都一样差,不分胜负。 在2018年,DeepMind(一家AI公司,和谷歌一杨,都是Alphabet的子公司)参加了CASP比赛。在之前,DeepMind曾用AI技术在围棋比赛中战胜人类。这家AI公司开发软件,取名为AlphaFold,试图解决蛋白质折叠问题。这款软件融合了化学家、物理学家和生物学家掌握的蛋白质的原子力知识,并且开始结合AI。当年这个预测模型进展明显,获得了60多分,但这仍然不够好,还是没有应用价值。在2018年的比赛后,AlphaFold的开发者扩展了AI深度学习的方式,他们讲100多台计算机联网,输入了170000个蛋白质的氨基酸序列和对应的蛋白质的三级结构,以学习蛋白质折叠的原理。他们也尝试确定一个蛋白质的碎片结构,然后将碎片拼凑起来(像完成一个七巧板一样)。这个方法很好。在2020年年底的CASP大赛,他们的预测模型的得分的中位分数达到92.5,远高于其他参赛选手。但目前没公布所有预测模型的细节。在2021年7月15日和22日,AlphaFold预测模型被公布。一篇来自华盛顿大学的研究同时发表,报道了RoseTTAFold软件(受AlphaFold的部分启发),声称可以做到同等精确预测。虽然软件预测精确,下个问题是软件可以揭晓多少当前未知的蛋白质三级结构。大量的蛋白质线性氨基酸序列都是已知的,但只知晓很少这些蛋白质的三级结构。少到多少?据调查,截止2021年1月,经过数千名科学家工作仅确定了20000个人类蛋白质中大约30%蛋白质的结构和280百万非人类蛋白质中仅0.01%的蛋白质结构。该软件是否能够快速将已知的核苷酸和氨基酸序列转成更多蛋白质的三级结构?在2021年7月22日,DeepMind的研发者公布了答案。在他们的官网上,他们提供了超过全部20000人类蛋白质的98%的预测结构。他们也公开了在生物医学研究中使用的20种生物模型的365000个蛋白的预测结构,包括小鼠、果蝇、酵母和大肠杆菌。该公司也宣布计划在2021年底公布地球上大约2.8y亿个蛋白质中大约50%的预测结构,而2021年7月1日只知道0.01%。尽管这项成就非凡,但也存在大的局限性。AlphaFold团队报道对它的预测大约60%的蛋白质有信心。而且,他们有信心的结构仍然需要实验确认。这个预测模型在解决一小群未知蛋白质方面非常准确,但这并不能保证所有预测的结构都是正确的。除此之外,要实现软件能够确定相邻的蛋白质是如何相互影响的,还有许多工作要做。许多蛋白质单独是没有功能的,要和其他蛋白形成复合体才有功能,因此重要的不是单个蛋白质的形状而是蛋白质复合体的形状。除此之外,蛋白质不是静止的;不同蛋白质结构如何随着它的功能而改变,需要加以阐明。许多疾病(例如阿尔兹海默症)的特点是蛋白质折叠错误并且形成致病的纤维样结构;这项突破目前无法清楚阐明这种错误折叠。除此之外,需要做更多工作去确定蛋白质是如何与非蛋白质分子相互作用的,特别是蛋白质和DNA、RNA结合后的构想。 回过头来看,蛋白质折叠的突破需要2个合作。第一个是上个世纪诞生的两个最重要领域之间的合作:分子生物学和信息技术。第二种是人脑和计算机之间的合作。计算机是人类创造众多机器之一,用于协助完成人类无法单独完成的任务。
AlphaFlod和RoseTTAFold软件以及它们预测的蛋白质三级结构都没有申请专利保护。免费提供这重大科学工具将加快新药的研发。1.Callaway E. DeepMind’s AI predicts structures for a vast trove of proteins. Nature. 2021;595(7869):635. doi:10.1038/d41586-021-02025-4PubMedGoogle ScholarCrossref2.Service RF. Huge protein structure database could transform biology. Science. 2021;373(6554):478.PubMedGoogle ScholarCrossref3.AlQuraishi M. Protein-structure prediction revolutionized. Nature. 2021;596(7873):487-488. doi:10.1038/d41586-021-02265-4PubMedGoogle ScholarCrossref4.Service RF. ‘The game has changed.’ AI triumphs at protein folding. Science. 2020;370(6521):1144-1145. doi:10.1126/science.370.6521.1144PubMedGoogle ScholarCrossref5.Lupas AN, Pereira J, Alva V, Merino F, Coles M, Hartmann MD. The breakthrough in protein structure prediction. Biochem J. 2021;478(10):1885-1890. doi:10.1042/BCJ20200963PubMedGoogle ScholarCrossref6.Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021;596(7873):583-589. doi:10.1038/s41586-021-03819-2PubMedGoogle ScholarCrossref7.Tunyasuvunakool K, Adler J, Wu Z, et al. Highly accurate protein structure prediction for the human proteome. Nature. 2021;596(7873):590-596. doi:10.1038/s41586-021-03828-1PubMedGoogle ScholarCrossref8.Baek M, DiMaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021;373(6557):871-876. doi:10.1126/science.abj8754PubMedGoogle ScholarCrossref9.EMBL-EBI. AlphaFold Protein Structure Database. Accessed September 16, 2021. https://alphafold.ebi.ac.uk10. Artificial intelligence in structural biology is here to stay. Nature. 2021;595(7869):625-626. doi:10.1038/d41586-021-02037-0PubMedGoogle ScholarCrossref